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摘 要 : [目的 /意义 ] 构 建 面向 分 面 检索 的 分 面体 系 和 政府 开放 数据 分 面 检索 模型 ,以 优化 用 户 体 验 。[ 方法 “过程 ] 立足 
政府 开放 数据 特征 进行 政府 开放 数据 分 面体 系 构建 ,在 此 基础 上 ,构建 政府 开放 数据 分 面 检索 模型 ,并 进行 原型 
系统 的 实现 以 验证 模型 的 可 行 性 和 效果 。[ 结果 /结论 ] 通 过 原型 系统 实现 证 实 所 构建 的 政府 开放 数据 分 面体 系 
能 够 有 效 帮 助 用 户 进行 检索 结果 的 探索 和 筛选 ;所 提出 的 分 面 检索 系统 模型 具有 良好 的 用 户 体验 ,操作 便捷 且 能 


够 规避 信息 过 载 问题 。 
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分 面体 系 


一 分 面 检 索 大 大 提升 了 用 户 的 信息 检索 效率 ,同时 
也 欢 善 了 用 户 的 使 用 体验 "”-” ,在 政府 开放 数据 检索 
实践 中 得 到 了 广泛 应 用 。 面 向 分 面 检索 的 分 面体 系 及 
其 展现 控制 是 影响 用 户 使 用 体验 的 核心 要 素 , 然 而 从 
更 有 政府 开放 数据 的 网 站 调研 来 看 ,存在 着 分 面 设置 
二 展现 控制 上 与 用 户 认 知 习惯 不 一 致 的 问题 ,导致 用 
户 查 索 体验 不 佳 。 分 面 设置 上 ,问题 表现 有 三 :其 一， 
部 车 政 府 网 站 开放 数据 内 容 相关 的 分 面 存在 焦点 重重 
的 混乱 情况 ,导致 分 面体 系 可 用 性 较 差 , 如 深圳 市 政府 
数据 开放 平台 同时 存在 焦点 重合 度 较 高 的 领域 ,主题 
和 得 业 三 个 分 面 ;其 二 ,部 分 政府 网 站 的 分 面体 系 不 完 
善 C 导 致 不 能 全 面 揭示 政府 开放 数据 特征 ;其 三 ,存在 
分 面 的 常用 焦点 设置 不 合理 的 情况 ,导致 分 面 价值 不 
能 有 效 发 挥 ,或 者 分 面 的 焦点 过 多 导致 信息 过 载 等 问 
题 中 ,如 浙江 省 数据 开放 平台 提供 的 数据 格式 分 面 上 ， 
其 焦点 包括 “XSL”"“XML”“JSON” 等 ,但 显然 用 户 不 太 
可 能 因为 数据 格式 问题 ,而 放弃 获取 某 一 开放 数据 集 。 
展现 控制 上 , 现 有 政府 开放 数据 网 站 缺乏 根据 检索 结 
果 动 态 调整 的 机 制 , 易 因为 分 面 或 焦点 过 多 引发 信息 
过 载 。 

除 此 之 外 ,当前 的 政府 开放 数据 分 散 分 布 于 各 层 
级 区 域 的 政府 开放 数据 平台 上 ,缺乏 资源 的 集成 发 
现 。 基 于 此 ,本 文 拟 从 用 户 需求 出 发 ,面向 政府 开放 数 


据 发 现 构 建 分 面体 系 ,进而 构建 面向 多 源 数据 的 政府 
开放 数据 集成 检索 系统 模型 ,以 支持 政府 开放 数据 的 
集成 发 现 。 


1 相关 研究 与 实践 


在 设计 分 面 检索 模型 时 ,除了 设计 常规 检索 系统 
的 所 有 功能 模块 外 ,还 需要 进行 分 面体 系 构建 分 面体 
系 应 用 策略 设计 和 交互 界面 设计 。 其 中 ,与 本 研究 密 
切 相关 的 是 分 面体 系 构 建 和 分 面体 系 应 用 策略 设计 ， 
下 面 将 围绕 分 面体 系 构建 方法 、 分 面 应 用 策略 以 及 面 
向 政府 开放 数据 的 分 面 检索 实践 进展 这 三 个 方面 进行 
综述 。 

1.1 分 面体 系 构建 方法 

分 面体 系 构建 方法 研究 主要 关注 分 面 化 改造 、 分 
面体 系 的 完善 以 及 分 面 的 自动 化 构建 。 在 分 面 化 改造 
上 , 胡 昌 平和 林 针 提出 基于 主题 词 表 的 分 面 化 改造 来 
构建 科技 文献 内 容 分 面 ”, 高 文 飞 和 赵 新 力 提出 了 基 
于 《综合 电子 政务 主题 词 表 》 的 分 面 化 改造 构想 ” , 贾 
君 枝 等 基于 FAST 主题 词 分 面 应 用 原理 和 理念 构造 了 
适用 于 电子 政务 主题 词 表 的 7 个 基本 分 面 和 13 个 扩 
展 分 面 "”。 在 分 面体 系 的 完善 上 ,相关 研究 关注 的 核 
心 问 题 是 如 何 更 全 面 . 深 入 地 揭示 资源 的 内 容 特 征 和 
质量 特征 。 围 绕 这 一 问题 ,部 分 研究 提出 将 用 户 生成 
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内 容 、. 评 分、 热度 等 新 的 属性 特征 加 入 分 面体 系 
中 -9 ;还 有 研究 则 在 已 有 分 面 的 基础 上 进行 完善 ,如 
政治 人 物 检 索 中 根据 政治 家 孩子 的 毕业 院 校 设置 新 的 
分 面 等 "" 。 尽 管 为 保障 分 面 与 焦点 选取 的 合理 性 、 可 
理解 性 ,专家 法 是 分 面体 系 构建 的 主流 方法 "- ,但 
分 面体 系 半自动 化 与 自动 化 的 构建 策略 也 已 经 开始 探 
索 。 分 面体 系 半自动 化 是 指 在 人 工 设 置 分 面体 系 框架 
的 基础 上 ,通过 信息 抽取 进行 焦点 集 的 自动 构建 ,如 
F. Abel 通过 实体 识别 技术 进行 火灾 发 生地 、 相 关 组 
织 、 人 员 三 个 分 面 的 焦点 集 构建 ;分 面体 系 自动 化 
则 以 实现 分 面体 系 框架 设置 与 焦点 集 构建 的 全 部 自动 
化 为 目标 ,如 窦 志 成 等 提出 了 融合 检索 结果 与 海量 语 
料 资源 的 分 面体 系 自动 挖掘 策略 "” 。 

1 站 = 分 面体 系 应 用 策略 

过 为 充分 发 挥 分 面体 系 的 导航 作用 ,同时 规避 其 带 
来 的 信息 过 载 问题 ,在 进行 分 面 应 用 时 ,需要 设计 分 面 
位 愤 排 序 策略 .展现 控制 策略 与 交互 机 和 
1C31 分 面体 系 排序 策略 


HH 


i 


O 


不 同 分 面 的 焦点 间 逻 辑 “ 与 "运算 ”' 。 但 也 有 研究 指 
出 ,用 户 选择 同一 个 分 面 内 的 多 个 焦点 时 ,其 需求 也 可 
能 是 进行 逻辑 "与" 运算。 
1.3 ”相关 实践 进展 

目前 我 国 上 线 了 130 余 个 政府 数据 开放 平台 ,其 
中 绝 大 部 分 平台 都 提供 了 分 面 检索 服务 ,下 面 以 浙江 
省 .贵州 省 .山东 省 和 贵阳 市 较为 典型 的 四 个 政府 开放 
数据 平台 为 例 对 当前 政府 开放 数据 的 分 面 检索 实践 状 
况 进 行 梳理 。 浙 江 省 政府 开放 数据 平台 包含 近 万 个 数 
据 集 ,其 分 面 检索 服务 提供 了 领域 .格式 以 及 数据 来 源 
单位 3 个 分 面 ,无 论 用 户 检 索 结果 分 布 如 何 ,各 分 面 的 
焦点 均 全 部 呈现 ;贵州 省 政府 开放 数据 平台 提供 1 400 
多 个 数据 集 ,其 分 面 检索 服务 提供 了 主题 .场景 .部 门 、 
类 型 格式 以 及 开放 属性 等 6 个 分 面 ,前 三 个 分 面 的 焦 
点 默认 不 展现 ,后 三 个 分 面 直接 呈现 所 有 焦点 ;山东 省 
政府 开放 数据 平台 提供 近 千 个 数据 集 ,其 分 面 检索 服 
务 提供 领域 .格式 、 开 放 类 型 以 及 省 直 部 门 4 个 分 面 ， 
各 分 面 的 焦点 均 全 部 直接 显示 ,但 只 有 省 直 部 门 分 面 


< 二分 面 较 少时 ,通常 采用 的 策略 是 人 工 指定 固定 顺 
改 访 策略 可 以 在 保障 分 面 排序 整体 合理 的 前 提 下 ， 
六 图 户 提供 稳定 的 预期 排序 策略 ,提高 了 用 户 的 分 面 
利用 效率 ,是 实践 中 最 为 流行 的 策略 。 但 也 有 研究 围 
绕 神 面 动态 排序 策略 开展 研究 ,以 适应 分 面 数量 较 多 
的 情形 , 如. Kharlamov 等 综合 考虑 了 应 用 分 面 后 获 
香 晤 结果 数量 多 赛 .能 否 得 到 独特 结果 ,浏览 路 径 的 丰 
富 笑 3 个 因素 设计 排序 策略 "5 ; 孔 盛 球 等 提出 了 基于 


Fe 常用 的 动态 排序 策略 是 按照 相关 结果 的 数量 进行 
降序 ,常用 的 固定 顺序 策略 包括 人 工 指定 、 字 顺 排 序 、 
时 间 顺 序 、 空 间 顺 序 等 |。 
1.2.2 ”展现 控制 策略 

合理 的 展现 控制 策略 有 助 于 改善 信息 过 载 问题 ， 
随 着 分 面体 系 的 不 断 丰 富 与 完善 ,其 重要 性 得 到 了 进 
一 步 加 强 。 对 分 面 的 展现 与 否 ,E. Kharlamov 等 认为 应 
收 起 不 太 重 要 的 焦点 与 分 面 '" ,李兵 提出 应 该 根据 用 
户 查 询 意 图 来 确定 是 否 展现 分 面 "” 。 在 层级 化 分 面 
本 系 的 展现 形式 上 , 胡 昌 平等 提出 应 根据 检索 结果 分 
布 动态 进行 分 面体 系 层 数 调整 ,以 避免 分 面体 系 的 深 
度 过 深 ” 。 
1.2.3 分 面 交互 机 制 

该 方面 主要 涉及 同一 分 面 内 及 不 同 分 面 间 多 个 焦 
点 间 的 运算 逻辑 。 当 前 ,研究 与 实践 中 较为 通行 的 处 
理 方 案 是 同一 个 分 面 内 的 焦点 间 进 行 逻辑 "或 "运算 ， 


展示 各 焦点 相关 的 数据 集 数 量 ; 贵 阳 市 政府 开放 数据 
平台 提供 近 3 000 个 数据 集 , 其 分 面 检索 服务 提供 领 
域 .主题 行业、 服务 .市 级 部 门 . 区 县 列表 数据 格式 等 
7 个 分 面 。 交互 机 制 上 ,上 述 四 个 平台 均 不 支持 同一 
分 面 内 选择 多 个 焦点 ,不同 分 面 之 间 的 焦点 均 是 逻辑 
“与 ”的 关系 。 

总 体 来 说 ,国内 外 围绕 分 面体 系 构建 方法 与 分 面 
应 用 策略 开展 了 多 方面 研究 ,其 成 果 对 政府 开放 数据 
分 面 检索 研究 与 实践 具有 参考 意义 。 但 是 ,针对 政府 
开放 数据 的 分 面 检索 理论 研究 仍然 较为 缺乏 ,而 实践 
探索 虽 取 得 了 初步 进展 ,但 仍 存在 较为 突出 的 问题 :分 
面体 系 构建 多 来 自 于 开放 数据 的 外 部 特征 ,对 数据 内 
容 特征 揭示 不 足 ,部 分 分 面 对 用 户 检 索 结果 的 探索 与 
过 滤 价 值 不 大 , 易 引 发 信息 过 载 ;交互 机 制 不 够 灵活 ， 
不 支持 分 面 内 同时 选择 多 个 焦点 及 分 面体 系 展现 的 动 
态 控制 ,影响 用 户 使 用 体验 。 为 解决 这 些 问题 ,本 文 拟 
先 立 足 用 户 的 分 面 应 用 需求 进行 分 面体 系 重 构 ,进而 
构建 面向 用 户 的 政府 开放 数据 分 面 检索 模型 ,以 优化 
政府 开放 数据 分 面 检 索 服 务 的 使 用 体验 。 


2 _ 政府 开放 数据 分 面体 系 构建 

当前 ,政府 开放 数据 主要 通过 国家 及 地 方 政府 的 
开放 数据 平台 进行 发 布 ,每 个 数据 集 都 只 有 唯一 来 源 。 
因此 ,在 当前 的 信息 环境 下 ,尽管 政府 开放 数据 具有 多 
方面 的 特征 ,如 数据 格式 数据 规模 发布 时 间 数据 主 
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题 ,发 布 部 门 等 ,但 用 户 只 需要 利用 数据 主题 ,类 型 (如 
名 单 .公示 统计) .发布 机 构 \ 时 间 范 围 几 个 特征 即 可 
实现 检索 结果 的 探索 与 过 滤 , 获 得 唯一 来 源 的 数据 集 。 
用 户 在 进行 开放 数据 检索 时 ,会 优先 考虑 能 够 辅助 检 
索 的 数据 特征 。 一 般 来 说 ,用 户 会 结合 开放 数据 的 内 
容 特征 和 外 部 特征 来 进行 筛选 。 在 内 容 特征 上 ,用 户 
会 优先 考虑 开放 数据 的 主题 和 类 型 ,通常 通过 前 者 来 
快速 判断 该 检索 对 象 的 内 容 是 否 符合 自身 的 检索 需 
求 , 并 通过 后 者 定位 所 需 的 某 一 种 类 的 开放 数据 。 在 
外 部 特征 上 ,用 户 会 优先 考虑 开放 数据 的 发 布 机 构 和 
更 新 时 间 , 即 用 户 通过 数据 发 布 机 构 来 判断 开放 数据 


的 级 别 等 信息 ,以 及 通过 数据 更 新 时 间 考 虑 时 效 性 。 
在 分 面体 系 构建 中 ,鉴于 数据 发 布 机构 的 数量 众多 ,为 
减少 信息 过 载 ,需要 将 其 进一步 细 化 为 行政 区 划 级 别 、 
行政 区 划 名 称 发 布 机 构 类 型 3 个 分 面 ;数据 集 所 涉及 
数据 的 时 间 信 息 ( 如 采集 时 间 、 统 计时 间 范 围 等 ) 难 以 
全 部 获取 ,但 基本 可 以 通过 数据 的 更 新 时 间 进 行 推测 ， 
因此 将 数据 更 新 时 间 纳 入 分 面体 系 。 根据 以 上 认识 ， 
政府 开放 数据 分 面体 系 应 包含 开放 数据 主题 \ 开 放 数 
据 类 型 行政 区 划 级 别 \ 行 政 区 划 名 称 、 发 布 机 构 类 型 
以 及 数据 更 新 时 间 6 个 分 面 ,如 图 1 所 示 : 


2 和 好) 开放 数据 主题 分 面 
人 不同 的 政府 开放 数据 网 站 提供 不 同 的 数据 主题 分 
节 海 致 目前 的 开放 数据 主题 分 面 较为 混乱 ,没有 形成 
一 他 统一 的 标准 ,而 《政务 信息 资源 目录 体系 第 4 部 
分 政务 信息 资源 分 类 》( CB/AT 21063.4 - 2007) ” 提 
es 目 体系 包括 21 个 一 级 类 目 和 133 个 二 级 
类 性 ,较为 全 面 地 涵盖 了 政务 信息 资源 的 主题 ,在 实践 
感到 了 广泛 应 用 ,研究 采用 该 类 目 体系 作为 政府 开 
放 数 据 的 主题 分 面 依据 。 从 设置 的 类 目 来 看 ,该 体系 
的 部 分 一 级 类 目 过 于 泛 化 ,不 能 很 好 地 进行 主题 划分 ， 
而 且 下 属 的 二 级 类 目 差异 较 大 ,如 一 级 类 目 “ 国 土 资 
源 、 能 源 " 下 设 有 "土地 ”矿藏 “水 资源 “海洋 ”“ 煤 
炭 ”“ 石 油 ”“ 燃 料 、 燃 气 ”“ 电 力 ” 以 及 “综合 类 ”等 9 个 
二 级 类 目 , 同 时 , “综合 类 ”这 个 二 级 类 目 也 出 现在 其 
他 一 级 类 目下 。 因 此 ,如 果 只 用 一 级 类 目 作为 每 个 分 
面 的 焦点 ,粒度 过 粗 , 难 以 帮助 用 户 准确 定位 所 需 资 
源 ; 如 果 只 用 二 级 类 目 会 造成 每 个 主题 下 的 “综合 类 ” 
混淆 , 且 焦点 数量 过 多 , 易 造 成 信息 过 载 。 基 于 此 , 拟 
将 GBMT 21063.4 -2007 中 的 一 级 和 二 级 类 目 均 纳入 

主题 分 面 ,形成 一 个 包含 亚 面 的 层级 分 面体 系 。 

2.2 开放 数据 类 型 分 面 
通常 一 个 数据 集 只 涵盖 了 其 所 涉及 主题 的 一 个 或 
儿 个 方面 ,或 者 属于 不 同 的 公文 种 类 , 据 此 可 以 将 数据 


政府 开放 数据 分 面体 系 

开放 数据 主题 | | 开放 数据 类 型 | | 行政 区 划 级 别 | | 发 布 机 构 类 型 | | 数据 更 新 时 站 行政 区 划 名 称 
™ I I 
> 国 + 次 2020 湖北 省 
< 十 源 、 能 源 教 | | 从 武汉 市 

名 | | 名 国 | | 省 || 地 || 区 | | 言 | | 安 || 一 
月 

LO 单 || 录 过 级 网 部 || 部 || 1 1 

矿 门 || 门 月 月 武 | | 洪 
© ql 昌 || 
© a 
< 1 政府 开放 数据 分 面体 系 (部 分 ) 


集 划分 为 不 同 的 类 型 ,以 表明 政府 开放 数据 集 所 包含 
数据 的 性 质 、 用 途 , 如 名 单 指标、 明细 公示、 通知 。 鉴 
于 当前 政府 开放 数据 缺乏 类 型 的 系统 划分 ,研究 采用 
了 归纳 法 进行 开放 数据 类 型 的 分 面 焦点 设置 。 首 先 采 
集 了 包括 贵州 广东 在 内 的 9 个 省 市 政府 开放 数据 集 
名 称 ,作为 构建 分 面 焦 点 词 集合 的 基础 数据 ;在 此 基础 
上 ,采用 人 工分 析 与 机 器 辅助 相 结合 的 方式 对 全 部 
21 036 条 数据 进行 分 析 , 提取 其 中 体现 数据 类 型 的 特 
征 词 ;最 后 ,人 工 对 提取 结果 进行 规范 化 和 归并 、 去 重 
处 理 , 形 成 数据 类 型 分 面 的 焦点 词 集合 , 共 包 含 清单 等 
46 个 。 
2.3 ”行政 区 划 级 别 \ 行 政 区 划 名 称 和 发 布 机 构 类 型 分 面 

随 着 时 间 的 发 展 和 政府 开放 数据 的 不 断 完善 , 政 
府 机 构 作 为 数据 发 布 主 体 参与 政府 开放 数据 建设 的 积 
极 性 将 会 提高 ,发 布 机 构 的 数量 将 日 益 增 加 。 知 进行 
跨 区 域 . 跨 层级 其 至 是 全 国 性 的 政府 开放 数据 发 现 平 
台 构 建 时 ,直接 将 发 布 机 构 作 为 焦点 ,将 会 带 来 较为 严 
重 的 信息 过 载 和 利用 不 便 问题 。 为 解决 这 一 问题 ,人 研 
究 拟 设置 行政 区 划 级 别 、 名 称 和 发 布 机 构 类 型 3 个 分 
面 ,从 而 既 可 以 通过 单个 焦点 实现 多 个 机 构 的 复合 选 
择 , 也 可 以 通过 路 分 面 焦点 的 组 合 实现 发 布 机 构 的 精 
确定 位 。 

(1) 行 政 区 划 级 别 分 面 。 我 


辐 现 行 的 行政 区 划 共 
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有 四 级 :省 级 行政 区 .地 市 级 行政 区 .区 县 级 行政 区 和 
乡镇 级 行政 区 。 实 践 中 ,乡镇 级 的 开放 数据 数量 较 少 ， 
而 国家 级 的 开放 数据 数量 较 多 且 开 放 程 度 较 高 ,因此 ， 
参考 我 国 的 四 级 行政 区 划 ,将 开放 数据 的 区 划 级 别 分 
面 的 焦点 设置 为 国家 级 .省 级 .地 市 级 和 区 县 级 。 

(2) 行 政 区 划 名 称 分 面 。 区 划 名 称 指 的 是 开放 数 
据 发 布 机 构 所 属 的 具体 行政 区 划 , 如 湖北 省 、 郑 州 市 、 
杭州 市 余杭 区 等 。 该 分 面 是 包含 省 .地 市 .区 县 的 三 层 
结构 ,可 以 通过 区 划 间 的 归属 关系 进行 层 层 定位 。 

(3 ) 发 布 机构 类 型 分 面 。 我 国 行政 体制 下 ,尽管 
不 同 层级 的 地 方 政府 之 间 , 及 地 方 政府 与 中 央 政 府 之 


与 用 户 连接 起 来 。 其 中 ,交互 界面 设计 可 以 参考 文献 
[24 -25 ] 的 研究 成 果 ,而 检索 模块 则 与 普通 检索 系统 类 
似 , 不 再 展开 讨论 , 下 文 将 重点 介绍 开放 数据 元 数据 采 
集 、 整 合 与 标 引 模块 以 及 分 面 应 用 策略 模块 。 


间 在 机 构 设置 上 具有 较 强 的 一 致 性 ,如 中 央 设 有 教育 
部 ,地 方 设 有 教育 厅 .教育 局 ,但 也 有 所 差异 ,如 地 方 政 
府 普遍 设置 的 政务 服务 数据 管理 局 在 国家 层级 上 就 没 

应 的 部 门 。 因 此 ,考虑 国家 机 关 设置 ,以 包括 上 
海山 东 等 在 内 的 8 个 省 级 和 地 级 市 政府 开放 数据 平 
Re 


的 浊 纳 ,最 终 得 到 的 焦点 词 包括 122 个 ,如 教育 部 门 、 
公家 部 门 网 信 部 门 等。 
2 人 @ 数据 更 新 时 间 分 面 
政府 开放 数据 集 具有 时 效 性 ,用 户 在 进行 开放 数 
据 侈 选择 时 ,会 考虑 到 该 数据 集 的 更 新 时 间 , 以 获取 所 
需 漳 间 范 围 内 的 信息 。 理 论 上 来 讲 ,更 新 时 间 是 一 个 
连 这 的 概念 ,而 且 随 着 时 间 的 推移 , 取 值 也 会 发 生变 
从 3: 际 应 用 过 程 中 ,结合 其 他 分 面 ,精确 到 开放 数据 
的 能 新 年 月 就 能 够 满足 用 户 的 结果 过 滤 需 求 。 因 此 ， 
时 间 分 面 设置 年 份 和 月 份 两 个 层级 ,以 帮助 用 户 
便捷 地 选择 具体 年 月 。 


3 ”政府 开放 数据 分 面 检索 系统 模型 


当前 ,我 国政 府 开放 数据 的 发 布 由 各 级 政府 自主 
完成 ,开放 数据 的 分 布 非常 分 散 , 因 此 为 实现 政府 开放 
数据 分 面 检索 ,首先 需要 进行 元 数据 的 采集 、 整 合 ,3 
在 此 基础 上 依据 政府 开放 数据 分 面体 系 进行 标注 ,以 
实现 数据 集 与 分 面体 系 的 关联 ;进而 设计 分 面体 系 的 
排序 .展现 控制 .交互 机 制 等 应 用 策略 。 基 于 以 上 过 
程 ,政府 开放 数据 分 面 检索 系统 架构 见 图 2, 包含 政府 
开放 数据 元 数据 采集 、 整 合 模块 ,自动 标 引 模块 ,分 面 应 
用 策略 模块 检索 模块 以 及 交互 界面 模块 。 政 府 开 放 数 
据 元 数据 采集 、 整 合 模块 为 自动 标 引 模块 提供 数据 文 
持 , 也 是 分 面体 系 设计 和 分 面 应 用 策略 模块 的 基础 ; 自 
动 标 引 模块 将 开放 数据 整合 模块 和 分 面体 系 模块 关联 
起 来 ;开放 数据 检索 模块 和 分 面 应 用 策略 模块 将 计算 机 


人 机 交互 界面 
| 
检索 结果 排序 
[3 
匡 果 区 本 焦点 选择 机 制 |[ 焦点 运算 机 全 
i 分 面 交 互 机 制 
让 3 基于 结果 数量 的 展现 控制 
辣 注 分析 词汇 等 级 动态 调整 
开放 数据 检索 焦点 展现 数量 控 抽 
分 布展 现 控 抽 
元 数据 的 抽取 分 面 排序 焦点 排序 
基于 规则 的 标注 分 面体 系 排序 
基于 机 器 学 习 的 标注 北 
开放 数据 自动 标 引 开放 数据 主题 || 开放 数据 类 型 
| 行政 区 划 级 别 | | 行政 区 划 名 称 
多 源 政府 开放 数据 归并 发 布 机 构 类 型 | | 数据 更 新 时 间 
开放 数据 分 面体 系 
标题 规范 化 Se | 
发 布 机 构 规范 化 | | | 元 数 元 数据 主动 推送 ]| 元 数据 定向 采集 
主题 字段 规范 化 | | | 据 映 | | 二 于 下 
a 射 策 后 
用 医 国 | | 
元 数据 规范 化 数据 平台 儿 数据 平台 
政府 开放 数据 整合 政府 开放 数据 元 数据 采集 


图 2 政府 开放 数据 分 面 检索 系统 模型 


3.1 政府 开放 数据 元 数据 采集 

为 实现 政府 开放 数据 的 集成 发 现 ,首先 需要 进行 
元 数据 的 采集 ,此 处 的 元 数据 除了 包括 各 级 政府 发 布 
的 政府 开放 数据 元 数据 外 ,还 包括 各 数据 集 的 URL 信 
息 。 元 数据 采集 既 可 以 通过 与 各 政府 开放 数据 平台 进 
行 协作 , 即 由 平台 定期 将 新 增 或 发 生 更 新 的 数据 集 的 
元 数据 信息 推送 过 来 ,也 可 以 利用 网 络 信息 采集 工具 
的 定向 采集 方式 主动 去 各 政府 数据 开放 平台 进行 元 数 
据 获 取 。 采 用 定向 采集 方式 时 ,除了 需要 采集 新 增 的 
数据 集 外 ,还 需要 对 已 采集 的 数据 集 信息 进行 监测 ,及 
时 发 现 更 新 数据 。 
3.2 政府 开放 数据 整合 

当前 的 开放 数据 元 数据 采集 均 以 官方 平台 为 信息 
源 , 且 各 数据 集 均 具有 唯一 性 ,因此 ,政府 开放 数据 整 
合 的 主要 工作 是 元 数据 的 规范 化 及 异 构 元 数据 的 映射 
策略 设计 。 元 数据 的 规范 化 是 指 对 采集 来 的 元 数据 进 
行 数据 转换 、 信 息 增补 等 以 提升 数据 的 规范 性 。 其 中 ， 
需要 特别 注意 的 是 标题 与 发 布 机 构 的 规范 化 .主题 元 
数据 规范 化 。 标 题 规范 化 是 指 需要 对 未 明确 体现 开放 
数据 所 针对 地 域 信息 的 数据 集 标题 进行 处 理 ( 如 “ 白 
云 区 统计 月 报 ”, 难 以 确定 是 贵阳 市 的 白云 区 还 是 广州 
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市 的 白云 区 ) ,使 其 明确 包含 所 属地 市 .区 县 信息 ,以 如 
免 歧 义 .提升 标题 的 可 理解 性 。 发 布 机 构 的 规范 化 与 
其 相似 ,需要 将 不 完备 的 机 构 名 称 补充 完整 。 主 题 元 
数据 规范 化 是 指 部 分 政府 开放 数据 平台 并 未 采用 CB/ 
T 21063.4 - 2007 进行 主题 著录 ,而 是 采用 了 数据 领域 
或 行业 词 表 , 这 就 需要 基于 两 个 词 表 间 的 映射 关系 将 
其 转换 为 GBAT 21063.4 - 2007 中 对 应 的 主题 词 。 异 
构 元 数据 映射 策略 设计 是 指 建立 不 同 开放 数据 平台 的 
元 数据 项 映射 规则 ,以 解决 政府 开放 数据 平台 采用 的 
元 数据 标准 不 同 ,或 者 对 于 同一 项 元 数据 的 命名 不 同 
而 无 法 整合 的 问题 。 
3.3 ”政府 开放 数据 集 标注 

在 实现 数据 整合 的 基础 上 ,还 需要 按照 前 文 构建 
的 政府 开放 数据 分 面体 系 进行 标注 ,从 而 为 资源 检索 
及 芬 面体 系 应 用 英 定 数据 基础 。 数 据 集 标注 主要 通过 
现存 元 数据 抽取 ,基于 规则 的 标注 和 基于 机 器 学 习 的 
栋 定 进行 实现 。 其 中 ,元 数据 抽取 指 的 是 开放 数据 集 已 
有 数据 已 经 包含 了 相应 的 信息 ,将 其 提取 出 来 即 可 实 
现 标注 ,其 主要 适用 于 开放 数据 主题 ,数据 更 新 时 间 的 
标注 ;基于 规则 的 标注 是 指 通过 抽取 规则 从 开放 数据 集 
的 全 关 信息 中 提取 出 基础 信息 ,进而 通过 映射 规则 建立 
数据 集 与 相应 分 面 的 焦点 的 关联 ,该 方法 主要 应 用 于 行 
或 这 虽 级 别 ,行政 区 划 和 名称, 发 布 机 构 类 型 的 标注 ;基于 
机 村 学 习 的 标注 是 指 利用 机 器 学 习 方法 进行 模型 训练 ， 
[ 疾 现 开放 数据 主题 .开放 数据 类 型 的 标注 。 
3. 巡 分 面 应 用 策略 模块 
"二 为 提高 用 户 使 用 分 面 的 效率 ,减少 分 面 展现 带 来 
的 信息 过 载 问 题 ,需要 进行 分 面体 系 排序 策略 、 展 现 控 
制 策略 和 交互 机 制 策略 设计 。 

(1) 分 面体 系 排序 。 鉴 于 政府 开放 数据 分 面体 系 
中 仅 包含 六 个 分 面 ,数量 不 多 且 均 为 常用 分 面 ,因此 研 
究 采 用 固定 排序 的 策略 ,分 面 顺 序 依次 为 开放 数据 主 
题 . 开 放 数 据 类 型 行政 区 划 级 别 ,发布 机 构 类 型 行政 
区 划 名 称 和 数据 更 新 时 间 。 不 同 的 分 面 下 ,焦点 排序 
策略 也 有 所 不 同 , 行 政 区 划 级 采用 固定 顺序 分 面 , 按 级 
别 从 高 到 底 排列 ;数据 更 新 时 间 分 面 下 ,年 份 按照 倒序 
排列 ,月 份 按照 从 12 月 到 1 月 进行 排列 ;其 余 分 面 按 
照 焦点 覆盖 的 开放 数据 数量 从 多 到 少 排列 。 
(2) 分 面体 系 展现 控制 。 当 检索 结果 较 少时 ,用 
户 无 需 通过 分 面体 系 对 结果 进行 探索 或 过 滤 , 此 时 不 
展现 分 面体 系 。 而 当 分 面体 系 展现 时 ,通过 调整 词汇 
等 级 控制 默认 展现 的 焦点 数量 进行 展现 控制 。 调 整 
词汇 等 级 是 指 当 开放 数据 的 主题 词 包 含 下 位 词 , 且 包 


含 该 主题 词 的 开放 数据 集中 于 一 个 或 少数 几 个 下 位 词 
时 , 则 将 该 主题 词 从 分 面体 系 中 剔除 ,同时 将 下 位 词 上 
移 ,简化 分 面体 系 的 层级 。 控 制 默认 展现 的 焦点 数量 
是 指 当 检索 结果 对 应 的 焦点 数量 过 多 时 ,依据 焦点 间 
的 排序 结果 ,默认 只 展现 前 面 几 个 焦点 ,同时 文 持 用 户 
自主 查看 全 部 焦点 。 

(3) 分 面 交 互 机 制 。 为 提高 分 面 交互 的 灵活 性 ， 
同一 个 分 面 内 或 不 同 分 面 间 允许 焦点 的 多 选 , 同 一 分 
面 内 的 焦点 间 设 置 为 逻辑 “或 ”的 关系 ,不 同 分 面 的 焦 
点 间 设 置 为 逻辑 “与 ”的 关系 。 


4 政府 开放 数据 分 面 检索 系统 原型 实现 


为 验证 政府 开放 数据 分 面 检索 模型 的 可 行 性 和 效 
果 ,研究 采集 了 广东 省 .贵州 省 等 6 个 省 级 政府 开放 数 
据 平台 以 及 滨州 市 .深圳 市 .杭州 市 等 24 个 地 市 级 政 
府 开放 数据 平台 开放 的 数据 集 作 为 基础 数据 (采集 时 
间 为 2020 年 12 月 25 日 至 30 日 ) ,进行 了 该 原型 系统 
的 实现 。 原 型 系统 采用 B/S( Browser/Sever, 浏 览 器 / 服 
务 器 ) 架 构 , 处 理 器 是 Intel( R) Core(TM)m3 -8100Y 
CPU @ 1.10GHz 1.61GHz ,运行 内 存 4GB; 软 件 的 操作 
系统 平台 为 Windows 10 ,基于 x64 的 处 理 髓 。 
4.1 原型 系统 构建 过 程 

得 益 于 各 省 市 政府 开放 数据 平台 均 注重 数据 的 标 
准 化 ,因此 各 数据 集 内 部 的 规范 性 均 较 强 。 然 而 ,各 省 
市 之 间 的 开放 数据 存在 较为 严重 的 数据 异 构 情况 , 包 
括 元 数据 体系 差异 较 大 ,同一 个 元 数据 项 命名 不 同 、 取 
值 规范 不 同 。 以 广东 省 和 杭州 市 政府 开放 数据 平台 为 
例 , 前 者 包含 后 者 所 没有 的 “关键 字 ” 元 数据 项 ,前 者 
将 “发 布 机 构 ” 元 数据 项 称 为 “数据 提供 方 ” ,后 者 则 称 
为 “发 布 部 门 ”; 前 者 的 发 布 日 期 信息 精确 到 日 ,后 者 
则 精确 到 秒 。 同 时 ,各 省 市 元 数据 中 的 标题 发布 机 构 
和 主题 著录 也 存在 不 规范 的 现象 。 基 于 此 ,研究 在 数 
据 整 合 环节 ,首先 结合 各 开放 数据 平台 的 元 数据 体系 
建立 了 原型 系统 的 元 数据 体系 ;继而 ,对 无 法 精确 匹配 
的 元 数据 项 名 称 ,建立 了 各 省 市 政府 开放 数据 平台 与 
原型 系统 间 的 映射 关系 ,以 解决 元 数据 名 称 异 构 问题 ; 
最 后 ,对 取 值 不 规范 或 异 构 的 元 数据 进行 处 理 ,保持 各 
省 市 开放 数据 的 一 致 性 ,实现 了 数据 的 整合 。 

数据 标注 环节 中 ,原型 系统 重点 关注 的 是 前 文 所 
构建 的 分 面体 系 在 数据 集中 的 体现 ,因此 需要 标注 数 
据 集 的 主题 类 型 行政 区 划 级 别 与 名 称 、 发 布 机 构 类 
型 以 及 数据 更 新 时 间 。 其 中 ,数据 主题 与 数据 更 新 时 
间 通 过 元 数据 抽取 实现 ;行政 区 划 名 称 标注 采用 规则 
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林 侈 , 龙 存 钰 ， 罗 宇 . 面向 政府 开放 数据 的 分 面 检索 研究 [J]. 图 书 情报 工作 ,2021 ,65(16) :130 - 137. 


从 数据 标题 中 抽取 ;行政 区 划 级 别 通过 区 划 名 称 与 级 
别 的 映射 关系 获取 ;发 布 机 构 类 型 标注 中 ,首先 通过 发 
布 机 构 元 数据 项 获取 相应 信息 ,从 中 提取 机 构 类 型 特 
征 词 ,进而 根据 映射 词 表 进行 标注 ;数据 类 型 的 标注 同 
样 采用 了 规则 法 ,如 果 数 据 类 型 下 的 焦点 词 出 现在 数 
据 集 的 标题 中 , 则 以 该 焦点 词 作为 其 数据 类 型 ,否则 标 
注 为 综合 类 。 

分 面 应 用 策略 设计 上 ,分 面 及 焦点 的 排序 .分 面 交 
互 机 制 参 照 前 文 模型 实施 ;展现 控制 上 ,检索 结果 少 于 
10 条 时 (一 页 最 多 展现 10 条 结果 ) ,展现 分 面 的 价值 
不 大 , 且 可 能 对 用 户 造成 干扰 ,故而 不 再 展现 分 面 ; 默 
认 状 态 下 ,每 个 分 面 最 多 展现 5 个 焦点 或 亚 面 ,以 避免 
信息 过 载 问 题 ; 当 某 一 亚 面 下 的 焦点 只 有 一 个 或 者 两 
售 k 除 行政 区 划 名 称 外 ) , 则 不 展现 该 亚 面 ,而 是 将 焦 
点 等 级 提升 一 级 ,直接 展现 出 来 ;分 面 下 只 有 一 个 焦点 
时 s 风 藏 该 分 面 。 

:也 原型 系统 效果 

回 总 体 来 说 ,政府 开放 数据 分 面 检索 原型 系统 的 用 
户 体 验 良好 ,系统 提供 的 分 面 可 帮助 用 户 便捷 地 进行 
检 术 结果 探索 与 过 滤 ,同时 受 展现 控制 策略 的 影响 ,也 


基本 不 会 带 来 信息 过 载 问题 。 研 究 以 搜寻 各 个 地 方 的 
新 冠 肺炎 救治 医院 名 单数 据 为 例 进 行 展 示 , 以 直观 反 
映 原 型 系统 的 效果 。 首 先 以 “新 型 冠状 病毒 "为 查询 
式 进行 检索 ,结果 如 图 3 所 示 。 此 时 ,检索 结果 数量 较 
多 ,需要 分 面体 系 的 辅助 才能 便捷 地 进行 结果 筛选 。 
从 左 侧 展示 的 分 面体 系 看 ,展示 的 主题 (包括 医疗 保 
健 政务 综合 类 等 焦点 )、 类 型 (包括 名 单 、 公 示 等 分 
面 ) ,发布 机 构 ( 卫 生 健康 部 门 、 当 地 政府 等 焦点 ) 等 分 
面 可 以 帮助 用 户 快速 进行 结果 筛选 ;同时 ,受益 于 展现 
控制 策略 ,默认 展现 的 分 面 和 焦点 数量 较 少 ,体系 较为 
扁平 化 ,不 会 带 来 信息 过 载 问题 ,检索 体验 良好 。 鉴 于 
需求 是 救治 医院 的 名 单 ,因此 选择 开放 数据 主题 中 的 
“医疗 保健 "和 数据 类 型 中 的 “名 单 ” 作 为 条 件 进行 过 
滤 。 如 图 4 所 示 ,检索 结果 从 97 条 精简 为 12 条 ,数据 
相关 性 有 了 非常 明显 的 改善 ,前 5 条 结果 中 4 条 是 相 
关 结果 。 通 过 这 一 交互 过 程 可 以 看 出 ,本 文 所 构建 的 
政府 开放 数据 分 面体 系 和 分 面 检索 系统 模型 的 可 行 性 
和 良好 效果 ,能 够 为 用 户 进行 政府 开放 数据 搜寻 提供 
有 效 支 持 ,大 幅 提升 其 搜寻 效率 和 交互 体验 。 


CN [wa 
© 开放 数据 主题 找到 相关 的 开放 数据 集 97 个 
CN 口 医疗 保健 (51) 贵州 省 “ 防 控 新 型 冠状 病毒 技术 攻关 及 集成 应 用 ”第 一 批 项 目 拟 立项 公示 
国 图 政务 综 | 更 新 时 间 : 2020.03 
Ee 提供 部 门 : 科学 技术 厅 
> 口 政府 工作 (9) 来 源 区 域 : 责 州 省 
mm 口 科研 工作 (3) 所 尾 主 题 : 科技 、 教 育 
ys 更 新 时 间 : 2020.12 
5G 口 名 单 (16) 提供 部 门 : 卫生 健康 委 
口 人 0) 来 源 区 域 : 天 津 市 
CC 所 尾 主题 : 文化 、 卫 生 、 体 育 
口 统计 (6) 
| 口 明细 (2) 山东 和 
更 新 时 间 : 2020.12 
二 Diat) 提供 部 门 : 卫生 健康 和 
更 多 .。 来 源 区 域 : 山东 省 
© 所 寿 主 题 : 文化 、 卫 生 、 体 育 
TE 山东 省 新 型 冠状 病毒 感染 的 肺炎 医疗 救治 定点 医院 名 音 
口 省 级 (16) 更 新 时 间 : 2020.05 
提供 部 门 : 卫生 健康 委 
Oe 来 源 区 域 : 山东 省 
口 区 县 级 (33) 所 履 主 题 : 文化 、 卫 生 、 休 育 
发 布 机 构 类 型 山东 省 新 型 冠状 病毒 感染 确诊 病例 信息 
健康 部 | 更 新 时 间 : 2020.04 
sie 提供 部 门 : 卫生 健康 委 
口 当地 政府 (33) 来 源 区 域 ; 山东 省 
口 政务 服务 数据 管理 部 门 (9) 所 性 主题 : 文化 、 卫 生 、 休 育 
O 〇 Remg 门 9) 山东 省 “新 型 冠状 病毒 感染 的 肺炎 疫情 应 急 技术 攻关 及 集成 应 用 ”重大 科技 创新 工程 拟 立项 项 目 名 单 
口 工商 部 门 (2) 更 新 时 间 : 2020.11 
提供 部 门 : 当地 政府 
更 多 … 来 源 区 域 : 山东 省 德州 市 庆 云 县 
所 性 主题 : 科技 、 教 育 
a 山东 省 东营 市 利津 县 | 
此 宋 镇 新 型 冠状 病毒 防 控 应 急 预案 
i 更 新 时 间 : 2020.11 
口 12 月 01) 提供 部 门 : 当地 政府 
来 源 区 域 : 山东 人 省 东 营 市 利 妾 县 
口 1 月 (2) 所 性 主题 : 综合 政务 
O10 有 (10) 
口 9 有 6) 福建 省 新 型 冠状 病毒 肺炎 县 (区 ) 级 定点 医院 名 单 
更 新 时 间 : 2020.02 
口 绷 (0) 提供 部 门 : 卫生 健康 委 
来 源 区 域 : 福建 省 福州 市 
ee 所 尾 主 题 ; 文化 、 卫 生 、 体 育 
名称 医疗 救治 临床 专家 组 名 单 
固 口 山东 省 (60) 更 新 时 间 : 2020.02 
提供 部 门 : 卫生 健康 委 
OF 来 源 区 域 ; 福建 省 福州 市 
回 口 福建 省 (12) 所 性 主 题 : 文化 、 卫 生 、 体 育 
田口 中州 省 (5) 


1234567. 下 -页 go 
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EE = 
行政 区 划 级 别 筛选 条 件 : 洁 据 主题 : 医疗 保健 |; | 黄 握 类 型 : 名 单 x|; 
口 省 级 (4) 找到 相关 的 开放 数据 集 12 个 
Da 广东 省 新 冠 肺炎 定点 救治 医院 名 单 
更 新 时 间 : 2020.07 
口 区 县 级 (2) 提供 部 门 : 卫生 健康 委 
来 源 区 域 ; 广东 省 
发 布 机 构 类 型 所 尾 主 题 ; 文化 、 卫 生 、 体 育 
口 卫生 健康 部 门 (7) 
山东 省 新 型 冠状 病毒 感染 的 肺炎 医疗 救治 定点 医院 名 单 
口 政务 服务 数据 管理 部 门 (3) 更 新 时 间 : 2020.05 
口 当地 政府 (2) 提供 部 门 : 卫生 健康 委 
来 源 区 域 : 山东 省 
数据 更 新 时 间 所 尾 主 题 : 文化 、 卫 生 、 体 育 
日 2020 和 (12 山东 省 滨州 市 具备 新 冠 病毒 核 琶 愉 测 能 力 医疗 卫生 机 构 名 单 
11 月 (4) 更 新 时 间 : 2020.11 
提供 部 门 : 卫生 健康 委员 会 
口 % 月 () 来 源 区 域 : 山东 省 滨州 市 
7 月 () 所 尾 主题 ; 文化、 卫生 、 体 育 
表 忆 福建 省 新 型 冠状 病毒 肺炎 县 (区) 级 定点 医院 名 音 
口 4 月 (2) 更 新 时 间 : 2020.02 
2 提供 部 门 : 卫生 健康 委员 会 
更 多 … 来 源 区 域 : 福建 省 福州 市 
所 尾 主 题 : 文化 、 卫 生 、 体 育 
行政 区 划 名 称 
口 山东 省 (6) 福建 省 新 型 冠状 病毒 肺炎 医疗 救治 临床 专家 组 名 单 
于 网 更 新 时 间 : 2020.02 
口 广东 省 (4) 提供 部 门 : 卫生 健康 委员 会 
> 田口 福建 省 O) 来 源 区 域 : 福建 省 福州 市 
j 所 尾 主 题 : 文化 、 卫 生 、 体 育 
4 选择 焦点 "医疗 保健 "和 "名 单 " 后 的 检索 结果 
i [5 ] 高 文 飞 , 赵 新 力 ， 我国 政务 信息 资源 主题 分 类 研究 []. 情报 科 
SsS 缚 语 学 ,2008 ,26(9) :1340 -1343. 
< [ 6 ] 贾 看 枝 , 武 晓 宇 ， 基 于 FAST 的 综合 电子 政务 主题 词 表 分 面 式 


加 在 当前 的 政府 开放 数据 分 面 检索 实践 中 ,由 于 分 

系 设置 和 应 用 策略 设计 不 够 合理 ,用 户 使 用 体验 
礁 佛 。 为 了 解决 这 一 问题 ,本 文 在 构建 政府 开放 数据 
认 泣 体系 基础 上 ,设计 了 政府 开放 数据 分 面 检索 系统 
模型 ,并 以 6 个 省 级 政府 开放 数据 平台 和 24 个 政府 地 
还 缓 开放 数据 平台 的 数据 为 基础 进行 了 原型 系统 的 实 
现 9 结 果 显示 ,研究 所 构建 的 政府 开放 数据 分 面体 系 
ee， 


索 画 统 模型 中 提出 的 政府 开放 数据 整合 策略 、 分 面体 
系 应 用 策略 都 非常 有 效 , 可 以 在 为 用 户 探索 和 得 选 检 
索 结 果 提 供 帮 助 的 同时 ,减轻 用 户 的 认 知 负担 ,也 不 会 
带 来 信息 过 载 的 问题 。 
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CY Abstract: | Purpose/significance | A government open data faceted system and a government open data faceted 


ch model for faceted search are constructed to optim 


ize user experience. | Method/process | Based on the char- 


acteristics of government open data, a faceted system was constructed. On this basis, a faceted search model of gov- 


senment open data was constructed, and the prototype s 


ystem was implemented to evaluate the feasibility and effec- 


ness of the model. | Result/conclusion | The realization of the prototype system proves that the constructed gov- 


Ehment open data facet system can effectively help users to explore and screen search results. The proposed faceted 


Search system model has a good user experience, which 


@yerload. 
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is convenient to use and can avoid the problem of information 


faceted system 
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